#LLM 아키텍처

AI 에이전트 기억 시스템의 구조와 원리

현재 다수의 AI 에이전트 메모리 라이브러리들이 인지과학의 용어를 차용해 쓰고 있지만, 실제 엔지니어링 구현은 그 의미를 제대로 반영하지 못하고 있습니다. 이 글은 에이전트의 기억 시스템이 대화에서 정보를 추출하는 '추출기', 데이터를 저장하고 모순을 처리하는 '저장소', 필요한 정보를 검색하는 '검색기'라는 세 가지 핵심 구성 요소로 이루어져 있음을 설명합니다. 개발자들은 이 세 가지 구조의 동작 방식과 설계 선택(정보 압축, 모순 처리 등)을 이해함으로써 어떤 메모리 라이브러리든 평가하고 활용할 수 있습니다.

에이전트 메모리 LLM 아키텍처 RAG

Hacker News • 68일 전

IMP 8

멀티 스트림 LLM: 프롬프트·추론·입출력 병렬화

기존 LLM의 순차적 메시지 처리 방식이 갖는 병목 현상을 해결하기 위해, 읽기, 쓰기, 추론을 각각 독립적인 '병렬 스트림'으로 분리하는 새로운 멀티 스트림 LLM 아키텍처가 제안되었습니다. 이 연구는 AI 에이전트가 새로운 입력을 읽으면서 동시에 다른 작업을 수행하거나 추론할 수 있게 만들어, 실행 효율성과 보안성, 모니터링 능력을 획기적으로 향상시킵니다. 이는 자율형 AI 에이전트 및 코딩 어시스턴트의 구조적 한계를 넘어서는 중요한 연구 성과입니다.

LLM 아키텍처 AI 에이전트 병렬 처리

r/LocalLLaMA • 74일 전

IMP 8

Orthrus-Qwen3-8B: 동일 출력 분포 유지하며 토큰 처리 속도 최대 7.8배 향상

기존 언어모델(Qwen3-8B)의 가중치를 고정한 채 학습 가능한 디퓨전 어텐션 모듈을 삽입해 모델의 원래 성능과 출력을 완벽하게 유지하면서도 토큰 처리 속도를 최대 7.8배까지 끌어올린 기술입니다. 기존의 디퓨전 기반 모델들이 성능 저하를 겪거나, 추측 디코딩(Speculative Decoding) 방식이 별도의 모델 초기화로 인해 지연 시간(TTFT) 페널티를 받는 것과 달리, 오버헤드 없이 압도적인 수용 길이(11.7)를 달성했다는 점이 핵심입니다.

추론 속도 최적화 디퓨전 모델 Qwen3

r/singularity • 83일 전

IMP 8

서브쿼드래틱, LLM 확장 한계 돌파 주장…비용 최대 1000倍 절감

전 구글 딥마인드와 메타 엔지니어들이 설립한 스타트업 '서브쿼드래틱(Subquadratic)'이 기존 대비 처리 비용을 1,000분의 1 수준으로 줄이는 새로운 AI 아키텍처를 발표했습니다. 이 모델은 데이터가 늘어나도 연산량이 비례해서 증가하는 선형 스케일링(Linear scaling)을 채택해 최대 1,200만 토큰의 컨텍스트 윈도우를 처리할 수 있다고 주장합니다. 비즈니스 측면에서 이 기술이 검증된다면 RAG(검색 증강 생성) 파이프라인이 불필요해질 수 있으나, 독립적인 동료 평가나 성능 저하 검증이 부족하다는 산업계의 비판적 시각도 존재합니다.

LLM 아키텍처 비용 효율화 선형 스케일링